智能论文笔记

Graph Neural Networks for Low-Energy Event Classification & Reconstruction in IceCube

R. Abbasi , M. Ackermann , J. Adams , N. Aggarwal , J. A. Aguilar , M. Ahlers , M. Ahrens , J. M. Alameddine , A. A. Alves Jr. , N. M. Amin

分类：机器学习

2022-09-07

ICECUBE是一种用于检测1 GEV和1 PEV之间大气和天体中微子的光学传感器的立方公斤阵列，该阵列已部署1.45 km至2.45 km的南极的冰盖表面以下1.45 km至2.45 km。来自ICE探测器的事件的分类和重建在ICeCube数据分析中起着核心作用。重建和分类事件是一个挑战，这是由于探测器的几何形状，不均匀的散射和冰中光的吸收，并且低于100 GEV的光，每个事件产生的信号光子数量相对较少。为了应对这一挑战，可以将ICECUBE事件表示为点云图形，并将图形神经网络（GNN）作为分类和重建方法。 GNN能够将中微子事件与宇宙射线背景区分开，对不同的中微子事件类型进行分类，并重建沉积的能量，方向和相互作用顶点。基于仿真，我们提供了1-100 GEV能量范围的比较与当前ICECUBE分析中使用的当前最新最大似然技术，包括已知系统不确定性的影响。对于中微子事件分类，与当前的IceCube方法相比，GNN以固定的假阳性速率（FPR）提高了信号效率的18％。另外，GNN在固定信号效率下将FPR的降低超过8（低于半百分比）。对于能源，方向和相互作用顶点的重建，与当前最大似然技术相比，分辨率平均提高了13％-20％。当在GPU上运行时，GNN能够以几乎是2.7 kHz的中位数ICECUBE触发速率的速率处理ICECUBE事件，这打开了在在线搜索瞬态事件中使用低能量中微子的可能性。

translated by 谷歌翻译

Building Multilingual Corpora for a Complex Named Entity Recognition and Classification Hierarchy using Wikipedia and DBpedia

Diego Alves , Gaurish Thakkar , Gabriel Amaral , Tin Kuculo , Marko Tadić

分类：自然语言处理

2022-12-14

With the ever-growing popularity of the field of NLP, the demand for datasets in low resourced-languages follows suit. Following a previously established framework, in this paper, we present the UNER dataset, a multilingual and hierarchical parallel corpus annotated for named-entities. We describe in detail the developed procedure necessary to create this type of dataset in any language available on Wikipedia with DBpedia information. The three-step procedure extracts entities from Wikipedia articles, links them to DBpedia, and maps the DBpedia sets of classes to the UNER labels. This is followed by a post-processing procedure that significantly increases the number of identified entities in the final results. The paper concludes with a statistical and qualitative analysis of the resulting dataset.

translated by 谷歌翻译

Intuitive Robot Programming by Capturing Human Manufacturing Skills: A Framework for the Process of Glass Adhesive Application

Mihail Babcinschi , Francisco Cruz , Nicole Duarte , Silvia Santos , Samuel Alves , Pedro Neto

分类：机器人

2022-09-15

对制造工艺的机器化的需求很大，因此单调劳动。一些需要特定技能的制造任务（焊接，绘画等）缺乏工人。机器人已在这些任务中使用，但是它们的灵活性受到限制，因为它们仍然很难通过非专家编程/重新编程，从而使它们无法访问大多数公司。机器人离线编程（OLP）是可靠的。但是，直接来自CAD/CAM的生成路径不包括代表人类技能的相关参数，例如机器人最终效应器的方向和速度。本文提出了一个直观的机器人编程系统，以捕捉人类制造技能并将其转变为机器人程序。使用连接到工作工具的磁跟踪系统记录人类熟练工人的演示。收集的数据包括工作路径的方向和速度。位置数据是从CAD/CAM中提取的，因为磁跟踪器捕获时的误差很明显。路径姿势在笛卡尔空间中转换，并在模拟环境中进行验证。生成机器人程序并将其转移到真正的机器人。关于玻璃粘合剂应用过程的实验证明了拟议框架捕获人类技能并将其转移到机器人方面的使用和有效性的直觉。

translated by 谷歌翻译

Ontologizing Health Systems Data at Scale: Making Translational Discovery a Reality

Tiffany J. Callahan , Adrianne L. Stefanski , Jordan M. Wyrwa , Chenjie Zeng , Anna Ostropolets , Juan M. Banda , William A. Baumgartner Jr. , Richard D. Boyce , Elena Casiraghi , Ben D. Coleman

分类：人工智能

2022-09-10

通用数据模型解决了标准化电子健康记录（EHR）数据的许多挑战，但无法将其集成深度表型所需的资源。开放的生物学和生物医学本体论（OBO）铸造本体论提供了可用于生物学知识的语义计算表示，并能够整合多种生物医学数据。但是，将EHR数据映射到OBO Foundry本体论需要大量的手动策展和域专业知识。我们介绍了一个框架，用于将观察性医学成果合作伙伴关系（OMOP）标准词汇介绍给OBO铸造本体。使用此框架，我们制作了92,367条条件，8,615种药物成分和10,673个测量结果的映射。域专家验证了映射准确性，并且在24家医院进行检查时，映射覆盖了99％的条件和药物成分和68％的测量结果。最后，我们证明OMOP2OBO映射可以帮助系统地识别可能受益于基因检测的未诊断罕见病患者。

translated by 谷歌翻译

A Spanish dataset for Targeted Sentiment Analysis of political headlines

Tomás Alves Salgueiro , Emilio Recart Zapata , Damián Furman , Juan Manuel Pérez , Pablo Nicolás Fernández Larrosa

分类：自然语言处理

2022-08-30

几项作品已经研究了主观文本，因为它们可以在用户中引起某些行为。大多数工作都集中在社交网络中的用户生成的文本上，但是其他一些文本也包括对某些主题的观点，可能会影响政治决策期间的判断标准。在这项工作中，我们解决了针对新闻头条领域的有针对性情绪分析的任务，该领域由主要渠道在2019年阿根廷总统大选期间发布。为此，我们介绍了1,976个头条新闻的极性数据集，该数据集在2019年选举中以目标级别提及候选人。基于预训练的语言模型的最先进的分类算法的初步实验表明，目标信息有助于此任务。我们公开提供数据和预培训模型。

translated by 谷歌翻译

An Evolutionary Approach for Creating of Diverse Classifier Ensembles

Alvaro R. Ferreira Jr , Fabio A. Faria , Gustavo Carneiro , Vinicius V. de Melo

分类：计算机视觉

2022-08-23

分类是数据挖掘和机器学习领域中研究最多的任务之一，并且已经提出了文献中的许多作品来解决分类问题，以解决多个知识领域，例如医学，生物学，安全性和遥感。由于没有单个分类器可以为各种应用程序取得最佳结果，因此，一个很好的选择是采用分类器融合策略。分类器融合方法成功的关键点是属于合奏的分类器之间多样性和准确性的结合。借助文献中可用的大量分类模型，一个挑战是选择最终分类系统的最合适的分类器，从而产生了分类器选择策略的需求。我们通过基于一个称为CIF-E（分类器，初始化，健身函数和进化算法）的四步协议的分类器选择和融合的框架来解决这一点。我们按照提出的CIF-E协议实施和评估24种各种集合方法，并能够找到最准确的方法。在文献中最佳方法和许多其他基线中，还进行了比较分析。该实验表明，基于单变量分布算法（UMDA）的拟议进化方法可以超越许多著名的UCI数据集中最新的文献方法。

translated by 谷歌翻译

Underwater enhancement based on a self-learning strategy and attention mechanism for high-intensity regions

Claudio D. Mello Jr. , Bryan U. Moreira , Paulo J. O. Evald , Paulo L. Drews Jr. , Silvia S. Botelho

分类：计算机视觉

2022-08-04

在水下活动期间获得的图像遭受了水的环境特性，例如浊度和衰减。这些现象会导致颜色失真，模糊和对比度减少。另外，不规则的环境光分布会导致色道不平衡和具有高强度像素的区域。最近的作品与水下图像增强有关，并基于深度学习方法，解决了缺乏生成合成基地真相的配对数据集。在本文中，我们提出了一种基于深度学习的水下图像增强的自我监督学习方法，不需要配对的数据集。提出的方法估计了水下图像中存在的降解。此外，自动编码器重建此图像，并使用估计的降解信息降解其输出图像。因此，该策略在训练阶段的损失函数中用降级版本代替了输出图像。此过程\ textIt {Misleads}学会补偿其他降解的神经网络。结果，重建的图像是输入图像的增强版本。此外，该算法还提出了一个注意模块，以减少通过颜色通道不平衡和异常区域在增强图像中产生的高强度区域。此外，提出的方法不需要基本真实。此外，仅使用真实的水下图像来训练神经网络，结果表明该方法在颜色保存，颜色铸造降低和对比度改进方面的有效性。

translated by 谷歌翻译

No Pattern, No Recognition: a Survey about Reproducibility and Distortion Issues of Text Clustering and Topic Modeling

Marília Costa Rosendo Silva , Felipe Alves Siqueira , João Pedro Mantovani Tarrega , João Vitor Pataca Beinotti , Augusto Sousa Nunes , Miguel de Mattos Gardini , Vinícius Adolfo Pereira da Silva , Nádia Félix Felipe da Silva , André Carlos Ponce de Leon Ferreira de Carvalho

分类：机器学习 | 自然语言处理 | (统计)机器学习

2022-08-02

使用机器学习算法从未标记的文本中提取知识可能很复杂。文档分类和信息检索是两个应用程序，可以从无监督的学习（例如文本聚类和主题建模）中受益，包括探索性数据分析。但是，无监督的学习范式提出了可重复性问题。初始化可能会导致可变性，具体取决于机器学习算法。此外，关于群集几何形状，扭曲可能会产生误导。在原因中，异常值和异常的存在可能是决定因素。尽管初始化和异常问题与文本群集和主题建模相关，但作者并未找到对它们的深入分析。这项调查提供了这些亚地区的系统文献综述（2011-2022），并提出了共同的术语，因为类似的程序具有不同的术语。作者描述了研究机会，趋势和开放问题。附录总结了与审查的作品直接或间接相关的文本矢量化，分解和聚类算法的理论背景。

translated by 谷歌翻译

Knowledge-Driven Mechanistic Enrichment of the Preeclampsia Ignorome

Tiffany J. Callahan , Adrianne L. Stefanski , Jin-Dong Kim , William A. Baumgartner Jr. , Jordan M. Wyrwa , Lawrence E. Hunter

分类：人工智能

2022-07-28

子痫前期是孕产妇和胎儿发病率和死亡率的主要原因。目前，先兆子痫的唯一明确治疗方法是胎盘的递送，这对于疾病的发病机理至关重要。已经广泛地进行了鉴定出差异表达的基因（DEGS），已经进行了广泛的先兆子痫对人胎盘的转录分析。使用无偏见的测定法确定了DEG，但是，在实验上研究DEG的决策受到许多因素的偏见，导致许多DEGS仍未被评估。一组与疾病在实验上相关的DEG，但与文献中的疾病尚无相关性，被称为无知组。先兆子痫具有广泛的科学文献，大量的DEG数据库，只有一种确定的治疗方法。促进基于知识的分析的工具能够将许多来源的不同数据结合起来，以提出基本的行动机制，可能是支持发现并提高我们对这种疾病的理解的宝贵资源。在这项工作中，我们证明了如何使用生物医学知识图（KG）来识别新型的先兆子痫分子机制。现有的开源生物医学资源和公开可用的高通量转录分析数据用于识别和注释当前未经资助的先兆子痫相关的DEG的功能。使用文本挖掘方法从PubMed摘要中鉴定出与先兆子痫相关的基因。文本媒介和荟萃分析衍生的列表的相对补体被确定为未经投票的前启示性脱位相关的DEG（n = 445），即先前的无知组。使用KG研究相关的DEG，揭示了53种新型临床相关和生物学作用的机械关联。

translated by 谷歌翻译

GAN-based generation of realistic 3D data: A systematic review and taxonomy

André Ferreira , Jianning Li , Kelsey L. Pomykala , Jens Kleesiek , Victor Alves , Jan Egger

分类：计算机视觉 | 机器学习

2022-07-04

数据已成为当今世界上最有价值的资源。随着数据驱动算法的大量扩散，例如基于深度学习的方法，数据的可用性引起了极大的兴趣。在这种情况下，特别需要高质量的培训，验证和测试数据集。体积数据是医学中非常重要的资源，因为它范围从疾病诊断到治疗监测。如果数据集足够，则可以培训模型来帮助医生完成这些任务。不幸的是，在某些情况和应用程序中，大量数据不可用。例如，在医疗领域，罕见疾病和隐私问题可能导致数据可用性受到限制。在非医学领域，获得足够数量的高质量数据的高成本也可能引起人们的关注。解决这些问题的方法可能是生成合成数据，以结合其他更传统的数据增强方法来执行数据增强。因此，关于3D生成对抗网络（GAN）的大多数出版物都在医疗领域内。生成现实合成数据的机制的存在是克服这一挑战的好资产，尤其是在医疗保健中，因为数据必须具有良好的质量并且接近现实，即现实，并且没有隐私问题。在这篇综述中，我们提供了使用GAN生成现实的3D合成数据的作品的摘要。因此，我们概述了具有共同体系结构，优势和缺点的这些领域中基于GAN的方法。我们提出了一种新颖的分类学，评估，挑战和研究机会，以提供医学和其他领域甘恩当前状态的整体概述。

translated by 谷歌翻译